点云匹配中不确定性的量化在许多任务中是关键的,例如姿势估计,传感器融合和抓握。迭代最近的点(ICP)是一种常用的姿势估计算法,它提供了两个点云之间的变换的点估计。在该过程中存在许多不确定性来源,这可能由于传感器噪声,含糊不清的环境和遮挡而产生。然而,对于自主驾驶等安全性问题,对于姿势变换的点估计是不足的,因为它不提供关于多解决方案的信息。目前的概率ICP方法通常不会捕获所有不确定性的来源,并且可以提供不可靠的变换估计,这可能在状态估计或使用此信息的任务中具有不利影响。在这项工作中,我们提出了一种新的算法来对齐两个点云,可以精确估计ICP的变换参数的不确定性。我们开发了基于梯度的ICP成本函数优化的Stein变分推断框架。该方法提供了对变换的非参数估计,可以模拟复杂的多模态分布,并且可以在GPU上有效地平行化。使用3D Kinect数据以及稀疏室内/室外激光雷达数据的实验表明,我们的方法能够有效地生产准确的构成不确定性估计。
translated by 谷歌翻译
Recent works have shown that unstructured text (documents) from online sources can serve as useful auxiliary information for zero-shot image classification. However, these methods require access to a high-quality source like Wikipedia and are limited to a single source of information. Large Language Models (LLM) trained on web-scale text show impressive abilities to repurpose their learned knowledge for a multitude of tasks. In this work, we provide a novel perspective on using an LLM to provide text supervision for a zero-shot image classification model. The LLM is provided with a few text descriptions from different annotators as examples. The LLM is conditioned on these examples to generate multiple text descriptions for each class(referred to as views). Our proposed model, I2MVFormer, learns multi-view semantic embeddings for zero-shot image classification with these class views. We show that each text view of a class provides complementary information allowing a model to learn a highly discriminative class embedding. Moreover, we show that I2MVFormer is better at consuming the multi-view text supervision from LLM compared to baseline models. I2MVFormer establishes a new state-of-the-art on three public benchmark datasets for zero-shot image classification with unsupervised semantic embeddings.
translated by 谷歌翻译
图形卷积是一种最近可扩展的方法,用于通过在多个层上汇总本地节点信息来对属性图进行深度特征学习。这样的层仅考虑向前模型中节点邻居的属性信息,并且不将全球网络结构的知识纳入学习任务。特别是,模块化功能提供了有关网络社区结构的方便信息。在这项工作中,我们通过将网络的社区结构保存目标纳入图卷积模型中,调查了对学习表示的质量的影响。我们通过在输出层中的成本函数中的明确正规化项和通过辅助层计算的附加损失项中通过两种方式结合目标。我们报告了在图形卷积体系结构中保存术语的社区结构的效果。对两个归因的分布图网络进行的实验评估表明,社区保护目标的合并提高了稀疏标签制度中的半监督节点分类精度。
translated by 谷歌翻译
我们提出了一种针对8位神经网络加速器的新型8位量化感知训练(S8BQAT)方案。我们的方法灵感来自Lloyd-Max压缩理论,其实际适应性适应训练期间可行的计算开销。通过量化质心源自32位基线,我们使用多区域绝对余弦(MRACOS)正规器增强训练损失,该培训将重量汇总到其最近的质心,有效地充当伪压缩机。此外,引入了定期调用的硬压缩机,以通过模拟运行时模型重量量化来提高收敛速率。我们将S8BQAT应用于语音识别任务,使用经常性神经网络TransDucer(RNN-T)体系结构。使用S8BQAT,我们能够将模型参数大小增加,以将单词错误率相对降低4-16%,同时仍将延迟提高5%。
translated by 谷歌翻译